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基于 被 引 -- 送 文档 权重 的 


尺 图 情 领 域 为 例 


专家 专长 识别 与 分 析 ” 


是 唐 晓 波 ” 周 禾 深 李 诗 轩 件 吴 、 
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摘 要 : [目的 /意义 ] 识 别 专 家 专长 有 助 于 发 现 具有 相同 或 相近 研究 方向 的 研究 者 ,对 开展 细 粒 度 的 专家 评价 与 分 析 具 有 
重要 意义 。 [ 方法/ 过程] 基于 学 术 论文 关键 词 构建 专长 种 子 词 典 ,采用 语义 相似 度 计 算 对 词典 进行 扩展 与 对 齐 ; 
融合 专长 术语 被 引 频次 、 作 者 贡献 率 与 专长 术语 着 文档 频率 ,提出 专家 专长 术语 的 被 引 - 逆 文 档 权 重 计算 方法 ; 

结合 专长 权重 得 分 及 排名 ,识别 专家 的 代表 性 研究 专长 ,并 进行 专家 评价 与 分 析 。[ 结果 /结论 ] 经 实验 验证 ,本 研 

> 究 提 出 的 专家 专长 识别 方法 能 够 客观 地 反映 专家 专长 的 影响 力 , 同 时 在 细 粒 度 专家 评估 、 专 家 推荐 以 及 学 科 热 点 
= 


分 析 等 相关 领域 具有 一 定 的 实践 参考 价值 。 
1 信息 计量 语义 挖掘 专长 识别 ”专家 评价 
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N2020 年 10 月 ,中 共 中 央 国务 院 出 台 《 深 化 新 时 代 
教 硝 评 价 改革 总 体 方案 》, 强 调 高 校 教师 科研 评价 的 重 
要 到 ,并 提出 要 根据 不 同学 科 、 不 同 岗位 特点 ,坚持 分 


类 记 价 ,推行 代表 性 成 果 评价 ,探索 长 周期 评价 ,完善 
同 轩 专家 评议 机 制 ,注重 个 人 评价 与 团队 评价 相 结 
合 瑟 。 然 而 , 随 着 新 兴学 科 、 交 叉 学 科 的 不 断 涌现 ,多 
样 邮 的 信息 资源 与 科研 成 果 数 量 大 .种 类 多 、 更 新 快 等 
特点 ,使 得 传统 信息 计量 学 方法 无 法 满足 新 时 代 的 科 
技 人 才 评 价 需求 。 因 此 ,如 何 应 对 融合 态 的 哲学 社会 
科学 发 展 趋势 ,制定 细 粒 度 的 科学 人 才 评 价 管理 体系 ， 
提升 多 元 化 的 科技 人 才 队 伍 建设 水 平 ,进而 优化 学 科 
资源 的 利用 效果 ,促进 新 时 代 学 术科 研 创新 发 展 ,成 为 
了 当前 亟待 解决 的 问题 。 

随 着 “小 同行 ”概念 的 提出 ,研究 者 开始 对 学 科 领 
域内 相同 或 相近 研究 方向 的 专家 开展 细 粒 度 评价 与 分 
析 。 识 别 专家 专长 可 以 发 现 * 小 同行 "专家 群体 ,并 支 
持 专 家 遵 选 .开展 多 维 专家 评价 与 分 析 工 作 。 统 计 法 


是 最 常见 的 专家 专长 识别 方法 ,李刚 等 基于 词 频 提取 
专家 专长 ,并 对 我 国 图 书 情报 与 档案 管理 领域 的 相似 
研究 专家 进行 聚 类 及 可 视 化 分 析 " ;在 考虑 文档 位 置 
的 基础 上 , 唐 晓 波 等 通过 统计 医生 学 术 成 果 的 关键 词 ， 
构建 医生 画像 的 成 果 特 征 "”; 刘 晓 驳 等 将 关键 词 作为 
候选 专长 术语 ,抽取 作者 - 关键 词 矩 阵 , 并 结合 TF- 
IDF 加 权 构 建 专家 专长 '" 。 部 分 研究 者 基于 网 络 分 析 
方法 进行 专长 识别 ,朱伟 珠 等 在 词 频 分 析 的 基础 上 构 
建 了 概念 知识 网 络 ,并 采用 K-core 层次 理论 划分 学 科 
领域 的 层次 结构 及 其 研究 子 群 ; 刘 萍 与 周 梦 欢 提 出 
了 基于 共 词 网 络 的 专家 专长 识别 方法 。 陈 独 等 则 将 
TextRank 和 概念 链接 技术 相 结 合 识别 表示 专家 专长 的 
候选 专长 术语 ,并 基于 署名 位 序 与 被 引 数 等 信息 ,使 用 
层次 分 析 法 为 专长 术语 分 配 权重 ” 。 此 外 ,部 分 研究 
者 基于 主题 分 析 识 别 专 家 专长 , 张 晓 娟 等 利用 PLSA 
对 每 位 专家 的 论文 产 出 进行 主题 建 模 ,并 分 析 图 情 领 
域 专家 的 研究 领域 中 , 陈 红 伶 等 将 Word2vec 词 向 量 模 
型 与 LDA 主题 模型 相 结合 ,构建 专家 特征 并 识别 学 术 
共同 体 ” 。 目 前 专家 专长 识别 方法 较为 局 限 ,大 部 分 
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研究 者 采用 统计 术语 词 频 的 方法 构建 专家 专长 标签 ， 
且 在 术语 权重 的 计算 中 引入 了 一 定 的 主观 因素 。 基 于 
领域 知识 库 识别 专家 专长 需要 集合 专家 知识 进行 领域 
本 体 构建 ,而 基于 主题 分 析 等 方法 抽取 的 专家 专长 识 
别 方法 则 又 存在 可 解释 性 较 差 等 问题 。 当 前 专家 专长 
识别 相关 研究 大 多 以 专家 研究 成 果 的 相关 文本 或 网 络 


家 评价 相关 人 研究 中 ,学 者 通常 选择 特定 领域 的 部 分 专 
家 开展 分 析 , 其 研究 方法 不 能 对 海量 专家 学 者 进行 细 
粒度 的 影响 力 评价 。 
2.2 关键 词 抽取 与 专长 词典 构建 

基于 领域 知识 库 的 专家 专长 表示 方法 能 够 对 专家 
专长 进行 准确 的 描述 ,为 构建 能 够 反映 领域 知识 的 专 


关系 来 抽取 代表 性 专长 ,忽略 了 成 果 对 学 科 领 域 所 产 
生 的 影响 以 及 专家 在 成 果 中 的 贡献 大 小 等 因素 。 
因此 ,本 研究 提出 了 基于 被 引 - 逆 文 档 权 重 的 专 
家 专长 识别 方法 。 将 论文 关键 词 与 词 向 量 模型 相 结 
合 ,自动 构建 专家 专长 术语 词典 。 融 合作 者 贡献 率 、 被 
引 频 次 与 专长 术语 道 文档 频率 ,提出 专长 术语 权重 计 


长 词典 ,需要 从 研究 成 果 中 抽取 出 能 够 反映 和 区 分 研 
究 主题 的 术语 。 常 见 的 专长 词典 构建 方法 是 利用 作者 
给 出 的 论文 关键 词 , 如 范 晓 玉 等 采用 科研 人 员 发 表 的 
文献 关键 词 ,构建 专家 的 研究 主题 及 兴趣 标签 ” 。 部 
分 研究 者 通过 统计 从 论文 摘要 中 挖掘 的 关键 词 构建 专 
长 词典 ,如 毛 进 等 选择 专家 研究 成 果 中 的 高 频 名 词 代 


算 方法 。 通 过 计算 专家 的 专长 权重 得 分 进行 排序 ,最 

终 提取 专家 的 代表 性 专长 标签 。 本 研究 提出 的 专家 专 

长 识别 方法 能 够 结合 相关 领域 研究 者 规模 .专家 在 相 

关 领 域 中 的 影响 力 等 因素 ,客观 地 提取 出 专家 的 代表 

性 多 长 ,对 专家 评估 专家 推荐 与 学 科 热点 分 析 等 方面 
铺 具 有 重要 实践 意义 。 


旧 关 研究 


专家 学 术 评 价 研究 
学 界 针对 专家 评价 开展 了 多 方面 的 探索 ,传统 研 
冤 都 主要 通过 篇 目 分 析 法 、 引 文 分 析 法 对 科技 人 才 进 
行 评价 (9 。 较 为 经 典 的 专家 评价 方法 包含 bh 指数" 
二 指数 '” ,其 主要 通过 一 定时 期 内 发 表 论文 数 及 补 
引 数 等 构建 专家 评价 指标 。 同 时 部 分 研究 者 从 论文 
数 < 甘 名 位 序 及 发 表 时 间 等 方面 优化 评价 指标 并 构建 
卫生 专家 评价 指数 ，”-“ 。 但 刘 中 兴 与 杨 建 林 指 出 ， 
我 国 图 情 领域 专家 的 个 人 学 术 评价 指标 使 用 仍 处 于 发 
展 阶 段 , 学 者 们 主要 针对 上 类 指数 的 指标 开展 研究 ,而 
对 个 人 学 术 综合 评价 的 多 元 指标 融合 途径 研究 较 少 ， 
包括 个 人 学 术 评 价 在 内 的 学 术 评 价 研究 仍 需要 进一步 
完善 n9 。 近 年 来 ,社会 网 络 分 析 呈 -本 .主题 分 析 中 与 


表 专 家 的 研究 专长 局 。 同 时 , 陈 独 等 则 将 词 共 现 网 络 
与 TextRank 相 结合 来 形成 学 术 专 长 候选 词 " 。 随 着 
自然 语言 处 理 领 域 的 发 展 , 一 部 分 研究 者 对 于 如 何 从 
学 术 论 文摘 要 及 正文 中 识别 关键 词 开展 了 研究 ,并 将 
词 向 量 模型 “与 深度 学 习 模型 ”引入 论文 关键 词 抽 
取 任 务 中 。 此 外 ,领域 知识 库 也 受到 了 学 者 的 关注 , 陆 
伟 等 将 中 国 图 书馆 分 类 法 与 管理 科学 主题 词 表 相 结 
合 ,构建 图 情 领域 专家 专长 词典 ,将 不 同 专家 的 研究 成 
果 进 行 映射 ”: ; 胡 月 红 和 刘 萍 通过 抽取 学 术 论 文 领域 
术语 ,并 基于 关联 规则 、 形 式 概念 分 析 , 挖 掘 术语 间 的 
关系 ,构建 情报 学 领域 本 体 ”。 

基于 专家 知识 与 领域 本 体 构建 术语 词典 的 方法 ， 
不 仅 需 要 海量 的 专家 领域 知识 ,同时 在 应 对 新 兴 研 究 
热点 时 往往 会 有 述 滞 性 。 而 通过 TextRank 等 算法 或 
自然 语言 处 理 方法 自动 构建 术语 词典 ,虽然 能 够 减少 
专长 本 体 的 人 工 标注 成 本 ,但 也 带 来 了 可 解释 性 较 低 、 
不 能 有 效 表示 词 与 词 之 间 关 系 等 问题 。 
2.3 ”署名 位 序 与 作者 贡献 研究 

在 学 科 融 合 .学 科 交叉 的 背景 下 , 越 来 越 多 的 专家 
倾向 于 采用 合作 的 方式 开展 研究 ,不同 的 署名 位 序 能 
够 直接 体现 专家 的 贡献 大 小 。 如 图 1 所 示 , 本 研究 对 


专家 知识 地 图 '"”-” 等 也 逐渐 成 为 了 学 科 领 域 开展 专 
家 评价 与 分 析 的 常见 方法 ;此 外 ,部 分 研究 者 还 构建 了 
专家 知识 图 谱 进行 专家 评估 与 分 析 , 常 见 的 专家 知识 
图 谱 包 括 了 基于 合作 关系 的 专家 知识 图 谱 、 基 于 文档 
内 容 分 析 的 专家 知识 图 谱 、 基 于 链接 分 析 的 专家 知识 
地 图 的 图 谱 、 综 合 内 容 分 析 和 链接 分 析 的 专家 知识 图 
谱 等 2 。 

但 是 ,目前 专家 的 细 粒 度 评价 与 分 析 研 究 还 相对 
较 少 ,由 于 学 科 或 研究 方向 存在 差异 性 等 因素 , 仅 以 分 


图 书馆 情报 与 文献 学 领域 发 表 的 5 万 余 篇 论文 的 作 
者 进行 统计 分 析 后 发 现 , 独 立 作 者 发 表 的 文章 数量 呈 
递减 的 趋势 。 

署名 位 序 往往 和 专家 在 研究 中 的 贡献 大 小 相 
关 5] ,也 带 来 了 科研 成 果 的 专家 贡献 比例 分 配 问 
题 ”。 丁 敬 达 等 基于 其 构建 的 作者 贡献 率 测度 方法 ， 
提出 通过 计算 专家 按 研究 贡献 率 得 分 的 总 被 引 频 
次 ,评价 该 专家 在 该 领域 的 学 术 影 响 力 。 本 研究 采 
日 N. T.， Hagen 提出 的 作者 贡献 率 等 级 分 配 公式 计 


数 来 评价 专家 的 影响 力 是 存在 局 限 性 的 。 同 时 ,在 专 


月 
算 专 家 在 论文 中 的 页 献 度 ， 将 专家 署名 位 序 及 贡献 率 
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1 图 书馆 、 情 报 与 文献 学 独立 作者 发 表 论文 统计 


计算 方法 应 用 于 专家 专长 词 权重 计算 ,从 而 将 表示 论 

影响 力 的 被 引 频 次 按照 贡献 率 进行 分 配 ,凸显 文章 
的 重要 贡献 者 ,体现 重要 作者 在 该 研究 领域 的 科研 影 
响 力 。 如 公式 (1) 所 示 ; 


(CD 1 
LO D,= 式 (1) 
© J]* 3 
© ] 

:其 中 ,j 代表 作者 的 署名 顺序 ,m 代表 论文 的 作者 
总 表 . 
(ap) 


只 


于 被 引 - 逆 文 档 权 重 的 专家 专长 识 


型 框架 


通过 对 海量 论文 数据 进行 分 析 ,将 专长 术语 被 引 频 次 、 
作者 贡献 率 与 专长 术语 逆 文 档 频率 相 结合 ,构建 基于 
被 引 - 逆 文 档 权 重 的 专家 专长 识别 模型 ,如 图 2 所 示 。 
该 框架 主要 包括 数据 预 处 理 ,专长 术语 词典 构建 以 及 
专家 专长 表示 3 个 部 分 。 
3.1 数据 预 处 理 

为 保证 数据 的 完备 性 ,在 数据 预 处 理 阶段 将 采集 
自 多 平台 的 中 文 期 刊 论文 数据 进行 整合 ,并 提取 规范 
的 学 术 论文 数据 以 开展 进一步 分 析 。 本 文 的 数据 预 处 
理 流程 主要 包括 : 

(1) 数 据 获取 。 基 于 知 网 、 万 方 数 据 库 导出 目标 


~ 期 刊 论文 的 元 数据 ,采用 selenium 构建 爬虫 , 爬 取 论 文 
& 一 从 研究 成 果 中 提取 专家 被 研究 领域 所 认可 的 研究 | 被 引 数据 。 
上 申 是 开 展 细 粒度 专家 评价 与 分 析 工 作 的 前 提 , 本 文 
, 生 Te os 
二 3 数据 采集 一 一 数据 清洗 及 镁 选 
© | 
1 
1 
LT 
ah Room ee aa 
| 专长 术语 词典 构建 
1 
1 
1 
1 
| Os | | 专 家 候 渤 专 长 记 旨 了 | 
1 
| 专家 专长 示  [L-- 4 Ee te tk ee 
池 六 柜 居 计算 | 。 | 专家 贡献 度 计算 | | 专长 词 被 引 统 计 


专家 专长 词 规范 化 


专家 专长 表示 | 


专长 词 权 重 计算 
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图 2 基于 被 引 - 逆 文 档 权 重 的 专家 专长 识别 模型 
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(2) 数 据 清洗 及 筛选 。 数 据 清洗 主要 将 不 同 数据 
库 论 文 数据 进行 规范 化 ,合并 数据 后 筛选 过 滤 标 题 摘 
要 过 短 ,作者 字段 为 空 以 及 重复 的 样本 ,并 定义 规则 去 
除 其 中 的 通知 , 收 稿 资讯 等 相关 记录 。 
3.2 专长 术语 词典 构建 

关键 词 是 对 论文 内 容 进行 高 度 凝练 和 概括 的 
词 ,能 够 较 好 地 反映 专家 的 研究 方向 及 研究 能 力 。 
本 研究 采用 领域 近 10 年 发 表 论 文 数据 为 研究 对 象 ,以 
文本 中 的 关键 词 构建 专长 种 子 词典 ,将 种 子 词典 作为 
外 部 词典 引入 分 词 工具 中 ,经 过 对 摘要 和 标题 进行 分 
词 去 停 用 词 等 预 处 理 ,构建 Word2vec 词 向 量 模型 。 
从 论文 标题 ,摘要 中 提取 高 频 词 作为 扩展 候选 词 ,基于 
词 向 量 模型 进行 语义 相似 度 比较 。 采 用 与 种 子 词典 中 
其 丰 有 高 相似 度 的 扩展 候选 词 ,建立 关键 词 - 扩展 候选 
词 合 义 词 表 。 在 后 续 的 自然 语言 处 理 过 程 中 ,以 同 义 
词 坦 将 文本 中 异形 同 义 的 扩展 候选 词 转化 为 规范 化 的 
关键 词 。 同 时 ,采用 与 种 子 词典 中 关键 词 相似 程度 均 
较 陋 的 候选 词 构建 专长 扩展 词典 ,识别 出 与 种 子 词典 
中 辣 键 词 含义 均 不 同 的 高 频 词 , 并 通过 人 工 过 滤 该 词 
匡 困 不 能 有 效 反映 专家 研究 方向 及 研究 能 力 的 词 。 最 
种 子 词典 与 专长 扩展 词典 进行 整合 ,得 到 基于 语 
展 的 专长 词典 。 
.SN 专家 专长 表示 
.全 专家 专长 表示 包括 专长 词 提取 及 专长 词 权重 计算 


本 嘻 分 。 在 专长 词 提取 部 分 ,采用 同义词 表 将 原文 中 
的 篇 频 词 转化 为 标准 化 表达 的 专长 术语 ,并 将 专长 种 
子 词典 与 专长 扩展 词典 相 融 合 ,然后 利用 该 词典 标注 
论 克 数据 集中 的 专长 术语 。 最 后 ,提取 出 各 专家 的 的 
专长 词 与 相关 论文 信息 。 

在 专长 权重 计算 部 分 ,本 研究 采用 专长 术语 所 在 
论文 被 引 数 作为 主要 因素 之 一 ,以 专家 在 相关 领域 所 
产生 的 影响 力 大 小 客观 衡量 专长 的 权重 得 分 。 由 于 词 
向 量 模型 的 训练 语 料 规模 存在 局 限 性 ,部 分 在 语义 扩 
展 阶 段 引 入 的 词汇 不 能 有 效 反 映 专 家 专长 ,与 此 同时 ， 
递 文档 频率 能 够 反映 字 词 是 否 有 较 好 的 类 别 区 分 能 
力 ” ,因此 本 文 将 逆 文 档 频率 引入 专长 词 权重 ,如 公 
式 (2) 所 示 。 通 过 计算 专长 词 在 论文 数据 集中 的 逆 文 
档 频率 ,一 方面 能 够 过 滤 不 能 表征 论文 研究 内 容 的 党 
用 词 , 另 一 方面 能 够 将 相关 研究 领域 的 规模 作为 考量 
因素 ,避免 领域 专家 研究 内 容 的 趋同 性 ,从 而 促进 多 研 
究 方向 共同 发 展 。 此 外 ,在 权重 得 分 计算 中 引入 基于 
专家 署名 位 序 的 作者 贡献 率 因素 ,能 够 有 效 凸显 相关 
领域 的 重要 研究 者 。 综 上 ,本 研究 提出 专家 专长 词 权 


重 得 分 计算 方法 如 公式 (3 ) 所 示 。 选 择 研 究 领域 内 人 
数 大 于 10 人 的 专长 词 ,并 按照 专长 词 权重 得 分 进行 排 
序 , 最 终 获 得 专家 的 代表 性 专长 及 权重 得 分 。 


IDF, = log 
mi, 


式 (2) 


Score,, = Ei(D, xcite,* IDF,) 式 (3) 
其 中 ,M 表示 全 部 论文 总 数 ,w 表示 专长 术语 ,m。 
表示 包含 w 的 论文 数量 ,IDF, 表示 专长 术语 w 的 论文 
逆 文 档 频率 。 表示 专家 n 篇 论文 中 的 第 i 篇 论文 ,j 
表示 第 j 位 专家 。Score,, 表示 专家 j 在 专长 术语 w 上 
的 权重 得 分 ,D, ,表示 j 专家 在 第 i 篇 论文 中 的 贡献 度 ， 
cite,, 表 示 专 家 j 的 第 i 篇 论文 的 被 引 次 数 。 


4 ”实验 与 结果 分 析 


4.1 数据 采集 

本 研究 以 南大 核心 CSSCI 来 源 中 文 期 刊 目 录 
(2019 -2020 ) 中 图 书馆 ,情报 与 文献 学 领域 的 20 个 期 
刊 为 研究 对 象 ,通过 知 网 采集 学 术 论 文 元 数据 ,同时 以 
万 方 进行 数据 补充 。 采 集 2010 年 1 月 1 日 至 2020 年 
4 月 25 日 期 间 发 表 的 论文 相关 信息 共 54 698 篇 。 采 
集 字 段 包括 来 源 库 、 题 名、 作者 ,单位 .文献 来 源 、 关 键 
词 摘要、 发 表 时间、 第 一 责任 人 、 基 金 、 年 . 卷 、 期 .页 
人 码 ,分 类 号 以 及 被 引 次 数 ,元 数据 主要 通过 知 网 及 万 方 
提供 的 数据 服务 导出 ,被 引 次 数 基于 Selenium 构建 仆 
虫 采集 。 在 数据 预 处 理 阶段 ,将 万 方 .CNKI 数据 库 来 
源 的 论文 数据 进行 整合 ,去 除 标题 摘要 过 短 ,作者 字段 
为 空 的 样本 ,并 去 除 其 中 的 通知 、 收 稿 资讯 等 相关 记 
录 , 合 并 重复 记录 ,最 终 获 得 文章 共 49 399 篇 。 
4.2 实验 过 程 

为 挖掘 能 够 描述 专家 专长 的 术语 ,本 文 以 论文 数 
据 集中 词 频 大 于 3 的 关键 词 构建 专长 种 子 词典 ,共计 
7 990 个 词 。 将 专长 种 子 词典 导入 jieba 分 词 工 具 的 外 
部 词典 ,经 对 论文 数据 集 的 标题 和 摘要 进行 分 词 .去 停 
日 词 等 预 处 理 , 设 定 参 数 维度 为 100, 上 下 文 窗口 大 小 
为 5, 最 低 词 频 3 次 训练 Word2Vec 词 向 量 模型 。 从 标 
题 与 摘要 中 提取 词 频 大 于 100 的 高 频 词 作为 扩展 候选 
词 , 基 于 词 向 量 模型 对 高 频 词 与 专长 种 子 词典 中 的 关 
键 词 进行 语义 相似 度 比 较 。 若 高 频 词 能 够 从 专长 种 子 
词典 中 发 现 相似 度 大 于 0.9 的 关键 词 , 则 选择 最 相似 
的 关键 词 构建 关键 词 - 扩展 候选 词 同义词 表 ( 见 表 
1) , 共 建 立 关 键 词 - 扩展 候选 词 映射 关系 94 对 。 若 高 
频 词 与 专长 种 子 词典 中 的 关键 词 相 似 度 均 低 于 0.6， 
则 将 该 高 频 词 纳入 专长 扩展 词典 ,删除 没有 意义 的 词 
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如 “在 内 ”"“ 两 种 ”等 ,最 终 构 建 包含 37 个 词 的 专长 扩 
展 词 典 如 “核心 “背景 "和 “新 颖 ”等 。 最 终 ,通过 关键 
词 - 扩 展 候选 词 同义词 表 将 论文 中 的 高 频 词 进行 规范 
性 表达 ,同时 融合 专长 种 子 词典 与 专长 扩展 词典 ,构建 
基于 语义 扩展 的 专长 词典 ,词典 共 包 含 8 027 个 词 。 

表 1 关键 词 -扩展 候选 词 同义词 表 ( 部 分 ) 


关键 词 扩展 候选 词 
查 准 率 准确 度 
非 物质 文化 遗产 非 遗 
调查 问卷 问卷 
相互 作 相互 影响 


首先 ,将 论文 的 标题 与 摘要 进行 分 词 去 停 用 词 处 
理 ,其 次 ,通过 关键 词 - 扩展 候选 词 同义词 表 将 其 中 部 
分 欧 高 频 词 替换 为 标准 化 表达 的 关键 词 , 并 将 处 理 后 
的 师 题 .摘要 与 文章 的 关键 词 进行 拼接 ,构建 该 论文 的 
词 筑 。 通 过 基于 语义 扩展 的 专长 词典 保留 论文 文本 中 
渤 摊 能 够 较 好 反映 专家 专长 的 词 。 最 后 ,在 经 过 预 处 
理 的 论文 数据 集中 计算 专长 术语 的 逆 文 档 频 率 。 同 
时 5 提取 各 专家 相关 的 署名 序 位 ,论文 被 引 次 数 等 信 
感 , 并 基于 专家 署名 位 序 计算 专家 在 论文 中 的 贡献 率 。 


基 了 


FF 被 引 - 道 文档 权 和 


的 专家 专长 识别 


表 2 专家 专长 识别 方法 对 比 


采用 公式 3 计算 专家 专长 术语 权重 得 分 ,将 专家 专长 
按照 权重 得 分 进行 排序 ,得 到 专家 的 代表 性 研究 专长 。 
4.3 结果 分 析 

为 验证 本 研究 提出 的 基于 被 引 - 逆 文 档 权 重 的 专 
家 专长 识别 方法 的 有 效 性 ,本 文 进 行 三 部 分 的 实证 分 
析 : 首 先 ,对 本 研究 提出 的 识别 方法 和 TF-IDF 方法 的 
专家 专长 识别 效果 进行 对 比 ;其 次 ,抽取 多 位 专家 的 代 
表 性 专长 ,并 开展 特定 研究 专长 的 权威 研究 者 分 析 以 
及 针对 不 同人 研究 阶段 专家 学 者 的 专长 影响 力 评价 ;最 
后 ,选取 研究 领域 高 hn 指数 专家 抽取 其 代表 性 专长 , 进 
行 科 研 团队 热门 研究 主题 分 析 。 
4.3.1 专家 专长 识别 对 比分 析 

TF-IDF 算法 是 较为 常用 的 专家 专长 识别 方法 之 
一 ,分 为 词 频 与 道 文档 频率 两 部 分 ,该 算法 考虑 了 关键 
词 对 文档 的 重要 性 及 类 别 区 分 能 力 。 本 研究 利用 TF- 
IDF 方法 与 本 研究 提出 方法 进行 专家 专长 识别 效果 的 
对 比 。 将 每 一 位 专家 相关 的 论文 信息 进行 整合 ,利用 
基于 语义 扩展 的 专长 词典 构建 专家 关键 词 的 TF-IDF 
矩阵。 以 印 均 平 为 例 ,两 种 方法 提取 出 的 权重 得 分 前 
10 的 专家 专长 对 比如 表 2 所 示 : 


基于 TF-IDF 的 专家 专长 识别 


变 检测 , 40.06) (聚合 模式 , 37. 18) ，( 计量 学 , 34.78) 


"三 其 中 ,基于 被 引 - 道 文档 权重 方法 识别 结果 显示 ， 
成 招 平 在 计量 分 析 可 视 化 和 计量 工具 研究 ( CiteSpa- 
cell) 专长 方面 的 得 分 最 高 ,而 基于 TF-IDF 的 实验 结 

得 出 “五 计 学 "是 其 具有 代表 性 的 研究 专长 。 通 过 分 
析 相 关 研究 成 果 可 知 , 序 均 平 在 “五 计 学 "相关 领域 共 
发 表 4 篇 论文 ,主要 集中 于 2019 年 , 且 该 概念 的 相关 
研究 专家 仅 有 18 人 。 而 基于 被 引 - 逆 文 档 权 重 的 方 
法 选取 了 艺 均 平 专家 高 被 引 的 研究 成 果 构建 其 代表 性 
专长 标签 ,并 综合 了 不 同 专长 词 研究 者 规模 因素 选择 


(CiteSpaceIL,， 93.27) ，( 高 影响 力作 者 ,91. 89) ，( 学 科 知识 扩散 ， 
67.6),( 作 者 关键 词 艳 合 分 析 ，63. 15 ) ，( 作 者 关键 词 耦 合 ， 
57.35) ，( 作 者 共 被 引 分 析 , 51. 64) , (替代 计量 学 , 46.61) ，( 突 


(五 计 学 , 12.57) ，( 网络 流量 , 8. 07) ，( 作者 耦合 , 4. 61) ，( 资源 
本 体 , 4.54) ，( 作者 关键 词 灶 合 , 4.51) ，( 替代 计量 , 4.34) ，( 知 
识 交流 模式 , 4.15), (替代 计量 学 , 4.08 ) ，( 企 业内 部 知识 共享 ， 
3.99),( 作 者 互 引 , 3.95) 


Nl 


共 132 篇 ,篇 均 被 引 数 为 17.72 次 ,而 TF-IDF 方法 用 
以 提取 专家 专长 的 论文 共 155 篇 ,篇 均 被 引 数 为 8. 66 
次 。 

TF-IDF 方法 用 以 抽取 专长 的 论文 被 引 数 普遍 较 
低 ,说 明 该 方法 在 抽取 专长 时 仪 考虑 了 相关 研究 内 容 
的 数量 及 研究 者 规模 ,易于 在 研究 者 规模 较 小 的 研究 
内 容 中 选择 专长 词 。 而 本 研究 提出 的 方法 所 采用 论文 
的 平均 被 引 数 远 高 于 TF-IDF 方法 。 因 此 ,本 文 认 为 基 
于 被 引 - 道 文档 权重 方法 抽取 的 专长 能 够 反映 专家 被 


专长 术语 ,如 在 “CiteSpacell” 的 相关 研究 内 容 中 ,最 高 
被 引 249 次 , “学科 知识 扩散 ”相关 研究 分 别 被 引 48 和 
54 次 。 

为 验证 基于 被 引 - 北 文 档 权 重 方法 的 有 效 性 ,本 
研究 在 发 文 量 大 于 3 的 专家 中 随机 选择 了 100 位 专 
家 ,分 别 使 用 两 种 方法 提取 专家 得 分 最 高 的 专长 ,并 对 
该 专长 的 相关 论文 进行 可 视 化 分 析 , 如 图 3 所 示 。 其 
中 ,被 引 - 逆 文 档 权 重 方法 用 以 提取 专家 专长 的 论文 


同行 所 认可 的 代表 性 研究 方向 ,并 且 能 够 挖 据 出 研究 
领域 较 新 且 认 可 度 较 高 的 研究 主题 ,对 于 促进 学 科 多 
研究 方向 共同 发 展 具有 重要 意义 。 
4.3.2 专家 专长 评价 

本 文 提出 的 专家 专长 识别 方法 ,能 够 从 多 维度 开 
展 专家 评价 与 分 析 。 计 算 领 域 研 究 者 的 专长 权重 得 分 
并 排序 ,能 够 挖掘 研究 领域 的 权威 专家 ,或 评价 专家 在 
该 领域 的 研究 影响 力 。 以 “大 数据 ”相关 研究 为 例 , 将 
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图 3 专家 专长 相关 论文 被 引 数 分 析 


题名 .关键 词 或 摘要 中 包含 “大 数据 "的 论文 作为 研究 
对 泵 ,统计 领域 内 的 专家 论文 信息 并 计算 其 专长 权重 
得 分 ,如 表 3 所 示 : 


GOD， 表 3 “大 数据 "相关 研究 专家 专长 权重 得 分 
和 专家 专长 权 总 被 3 引 相关 论 篇 均 被 一 作 
© 重 得 分 次 数 文 篇 数 。 引 次 数 次 数 
1 ” 韩 梁 峰 3.455 975 433 2 217 2 
马 张 兴旺 ”2.914427 803 19 42 13 
CO 苏 新 宁 2.746979 415 14 30 5 
ON 李 广 建 2.701605 611 14 41 了 
陈 臣 2.538 106 336 11 31 11 


广 :相关 论文 篇 数 为 专家 在 "大 数据 ”相关 人 研究 发 表 的 论文 数 

渤 由 表 3 可 得 , 韩 染 峰 仅 两 篇 大 数据 研究 论文 ,但 获 
得 BO 最 高 专长 权重 得 分 ,经 分 析 , 其 两 篇 论文 分 别 被 引 
31 和 多 和 119 次 ,上 且 署名 均 为 一 作 。 与 此 同时 , 苏 新 宁 
虽 乡 篇 均 被 引 数 较 低 ,但 由 于 其 在 大 数据 研究 论文 中 
有 三 篇 独 作 , 最 高 被 引 221 次 ,而 李 广 建 的 两 篇 被 引 
178 和 165 次 的 一 作 研究 论文 存在 共同 作者 ,因此 苏 新 
宁 在 大 数据 领域 的 评分 相对 较 高 。 综 上 可 见 , 本 研究 


数据 网 络 (3/43 


作者 关键 词 耦 台 (122) 
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作者 共 被 引 分 村 深度 聚合 (3/5 
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突变 检测 (jf/ 科研 突 体 ( 兴 
eSpacel1(2/35) 

聚合 模式 ( 
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计量 学 (MiSD 
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深度 聚合 (159 营 代 计 莉 (2169 
(D 印 均 平 代表 性 研究 专长 


二 库 检 索 GD 


识 元 #18, 
数据 分 析 方 法 4 的 有 二 印 接 0 


(ID 曾 建 勋 代表 性 研究 专长 


提出 的 专家 专长 权重 计算 方法 对 高 被 引文 章 具 有 较 强 
的 倾向 性 , 且 对 署名 位 序 较为 敏感 。 

此 外 ,对 专家 的 代表 性 专长 及 其 专长 权重 进行 分 
析 ,能 够 有 效 评价 专家 的 学 术 影 响 力 。 本 研究 基于 国 
内 “十 二 五 ?期间 CSSCI 情报 学 领域 高 产 作者 与 高 被 
引 作者 排名 、 高 产 青 年 作者 与 高 被 引 青 年 作者 排 
名 , 按 权重 得 分 提取 专家 的 代表 性 研究 专长 并 构建 
雷达 图 ,同时 展示 其 在 该 专长 上 的 影响 力 排名 ,最 终结 
果 如 图 4 和 图 5 所 示 。 通 过 对 不 同 研究 阶段 的 专家 进 
行 对 比分 析 发 现 , 学 科 高 产 与 高 被 引 研 究 专 家 往往 在 
多 个 研究 方向 上 均 有 较为 深厚 的 学 术 积淀, 与 此 同时 ， 
青年 研究 专家 也 能 够 通过 其 研究 积累 ,在 主要 的 部 分 
研究 方向 上 取得 较为 优秀 的 成 绩 。 本 研究 所 提出 的 专 
家 专长 识别 方法 综合 考虑 了 专家 在 专长 领域 的 贡献 大 
小 ,并 基于 专长 术语 研究 领域 规模 为 专家 选择 了 代表 
性 专长 ,能 够 直观 反映 出 专家 人 研究 在 学 科 领 域 中 的 影 
响 力 , 并 有 利于 促进 专家 的 个 人 成 果 建 设 , 支 持 开展 多 
维度 的 专家 评价 工作 。 
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政府 应 对 (2738 i 演变 规律 (5375 主题 控 气 G 广 En 
奥 情 监管 (1/84) 内 容 分 析 (1/83) SpoceT(19/35) 技术 主题 (13 个 1 把 
QD 兰 月 新 代表 性 研究 专长 (ID 胡 泽 文 代表 性 研究 专长 (0D 许 海 云 代表 性 研究 专长 


5 学 科 领 域 高 产 与 高 被 引 青年 研究 专家 代表 性 专长 雷达 图 ( 部 分 ) 


4.3.3 ”高 h 指数 专家 研究 主题 分 析 
引证 行为 在 一 定 程度 上 反映 了 学 科 领 域 对 文章 内 
容 瑟 方向 的 认可 ,高 h 指数 专家 同时 兼 具 了 较 高 的 发 广 
明和 文章 被 引 ,分 析 高 指数 专家 的 研究 内 容 能 够 有 助 
领域 的 热门 研究 。 本 研究 以 南大 核心 CSSCI 来 
0 0 


日 至 2020 年 4 月 25 日 期 间 发 表 的 学 术 论文 计算 专家 ] 
指数 ,并 对 高 h 指数 专家 进行 分 析 。 以 上 指数 得 分 大 于 
等 于 20 的 专家 为 研究 对 象 ,再 基于 被 引 - 逆 文 档 权 重 
识别 上 述 专家 的 代表 性 专长 ,在 表示 专家 专长 的 同义词 
中 保留 权重 得 分 较 高 的 专长 词 ,最 终 得 到 领域 高 bh 指数 
专家 的 代表 性 专长 及 权重 ,如 表 4 所 示 : 


外 表 4 高 h 指数 专家 代表 性 专长 及 权重 


h 指数 排名 ”专家 ”指数 得 分 代表 性 专长 及 权重 

人 印 均 平 35 (Ciespaeell, 93.27) (高 影响 力作 者 , 91.89) (学 科 知识 扩散 ,67.6) ，( 作 者 关键 局 机 合 分析 , 63. 15) ，( 作者 关键 词 
OQ 耦合 , 57. 35 ) 

G3 朱 庆 华 。 ”28 “(情感 信任 , 29.94) (混合 方法 研究 , 23.34) ，( 群体 协作 ,21.61) ，( 隐 私 行为 ,18.0) ，( 社 会 计算 ，17.31) 

CN on 花 。。25 (政府 数据 开放 共享 ,62.25) ，( 中 小 学 生 , @2. 17) ，( 政 府 数据 开放 平台 ，40. 64) ，( 大 规模 开放 在 线 课程 , 29.49) ，( 政 


府 数据 , 27. 85 ) 


LV 


李纲 25 


马 海 群 24 (人 


X 


Mna 
[E23 
各 
尖 


赵 宇 翔 23 
柯 平 23 


.Ch 


初 景 利 23 


( 突 发 公共 事件 , 63.05) ， (智库 产品 , 54. 96 ) , (城市 应 急 管理 , 52. 28 ) ,〈 社 会 结构 , 39. 86) ，( 群体 行为 , 38.05) 
放 政 策 , 41.67) ，(CiteSpace 开 ,， 40.58),( 


放 数 据 政策 , 38.35) ，( 高 校 信息 公 开 , 35. 1) ,，( 网 络 效 应 , 30. 8) 


23 (科学 引文 , 204.9), (动态 网 络 分 析 , 166.73) ，( CiteSpacelI, 117.37), (网 络 计量 , 83.48), (ISI, 53.2) 

(动因 研究 , 65.29) ，( 数 字 移民 , 53.08) ，(UGC, 48.12) ,情感 信任 , 4.72), (关键 词 分 析 , 43. 82) 

( 认 知 方式 , 52.54) ，( 图 书馆 战略 管理 , 43.78) ，( 图 书馆 战略 , 33.08), (成 本 管理 , 32.61), (图书 情 报 专业 学 位 , 28.54) 
唐 晓 波 23 ( 细 粒 度 情 感 分 析 , 44. 29) ，( 热 点 挖掘 , 41.55) ，( 产 品评 论 挖掘, 36. 24) ，( 属性 抽取 , 29. 65) ，( 潜在 主题 , 25. 84) 
(嵌入 式 学 科 馆 员 , 156. 39) ，( 新 型 服务 能 力 , 124.11) ，( 图 书馆 发 展 成 略 , 77. 98) ，( 智 慧 馆 员 , 72. 47) ，( 调 研 报告 , 68. 19) 


11 许多 22 (信号 分 析 , 35.14) ，( 专题 知识 库 , 18.58) ，( 政 府 回应 ,17.9) ，( 政 务 信 息 共 享 , 15.93 ) ，(DC 元 数据 , 13.35 ) 

11 苏 新 宁 22 (大 情报 观 , 91.8 ) ，( 检 索 技 术 , 66.73 ) ,( 大 数据 思维 , 61.24) ，( 资 源 服务 , 31.61) ，( 数 字 图 书馆 服务 , 31. 11 ) 
11 王 晰 剖 22 (情感 信任 , 71.83) ，( 雾 者, 36.2), (企业 信息 生态 系统 , 24.75 ) ，( 网 络 团 购 , 24.69) ，( 低 碳 技术 , 24. 31) 

11 王国 华 22 (与 论 反 转 , 66.65) ，( 议 程 设 置 , 34.97) , (辟谣 , 29.32)， (与 情 应 对 , 23.31), (传统 媒体 , 20. 52) 

11 张晓林 22 (科研 知识 , 131. 09) ，( 知识 计算 ,128. 03 ) ,〈 数 字 学 术 , 66.48), (合作 创新 , 55.71) ，( 研究 图 书馆 ,53.92) 

11 张 向 先 22 (政务 微 信 公 众 号 , 49.52) , (信息 生态 圈 , 24. 11) ，( 情 感 信 任 , 19.51),， (企业 信息 生态 系统 , 18.53) 

11 兰 月 新 22 (衍生 熏 情 , 175.2) ，( 微 分 方程 , 152.43)， (安全 评估 , 127.89), (数值 仿真 , 89.62), (信息 监测 , 75.29 ) 

18 李 贺 21 (情感 信任 , 30.13) , (模糊 推理 ,17.24) ，( Web of Science, 10.43), (社交 媒体 倦 傅 ,9.84) ，( 隐私 计算 , 8.58) 
18 孙 建 军 21 (TIF, 23.55 ) , (期 望 确认 模型 ,18.51), (用户 接 受 模型 , 17.13), (任务 技术 适 配 模型 , 16.31) ，( 期 刊 共 被 引 , 13. 89) 

18 刘炜 21 (数字 对 象 , 61.18) ，(AR 技术 , 57.98 ) ，( 图 书 情 报 界 , 47. 83 ) ，( 规范 控制 , 43.48 ) ，( 语义 链接 , 38.34) 

21 马 费 成 20 (概念 网 络 , 32.88) ，( 信 息 老 化 , 28. 99) ，( 信 息 生命 周期 管理 , 25. 58 ) ，( 演 化 网 络 , 25.04) ，( 用户 满意 度 模 型 , 24. 88) 
21 邓 胜 利 20 (交互 学 习 , 31.13), (网 络 社 群 , 28.46),( 社 会 性 网 络 服 务 , 21.38 ) ，( 健康 信息 搜寻 , 20.56), (信息 源 选择 , 19.21) 
21 圳 勤俭 20 (数据 治理 框架 , 16.76)，( 大 情报 观 , 15.4) ,，( 社 会 化 电子 商务 ,14. 19) ，( 德尔 菲 法 ，12. 63 ) ，( 南京 大 学 , 12.22) 
21 肖 希 明 20 (公共 数字 文化 资源 , 32.47 ) ，( 公 共 文化 空间 , 44. 06) ，(LAM, 31.6) ，( 元 数据 互 操 作 , 30.66) ，( 数 字 化 服务 , 24.69) 

21 王 世 伟 20 (复合 图 书馆 ,243.73 ) ，( 网 络 空间 安全 , 182.77) ，( 节 能 , 143.7) (智能 图 书馆 , 139.15) ，( 智 能 技术 ,115.23 ) 
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经 分 析 可 以 发 现 ,图 书馆 、 情 报 与 文献 学 领域 高 
指数 专家 的 主要 研究 领域 包括 了 信息 计量 政府 数据 
公开 、 突 发 事件 与 应 急 响 应 、 用 户 行为 研究 社交 媒体 
研究 数据 分 析 与 知识 发 现 及 图 书馆 管理 与 分 析 等 方 
面 。 其 中 ,信息 计量 、 图 书馆 管理 与 分 析 工 作 获 得 了 较 
高 的 权重 得 分 。b 指数 在 专家 评价 工作 中 不 能 体现 出 
专家 在 具体 研究 方向 上 的 贡献 , 仍 需要 人 工 筛选 评价 
对 象 与 研究 数据 ,才能 够 开展 特定 研究 方向 的 专家 评 
价 与 分 析 工 作 。 本 研究 提出 的 专长 识别 方法 是 对 专家 
评价 研究 的 有 效 补充 ,能 够 从 专家 各 研究 方向 所 产生 
的 影响 力 来 丰富 专家 分 析 与 评价 工作 。 


S 结语 


二 本文 基于 词 向 量 模 型 构建 了 描述 专家 专长 的 词 
典 可 将 专长 术语 被 引 频 次 .作者 贡献 率 与 专长 术语 闻 
诡 档 频率 计算 公式 相 融 合 ,提出 了 基于 被 引 - 道 文档 
的 专家 专长 识别 方法 。 该 方法 能 够 基于 专家 的 代 
本 研究 成 果 提取 专家 专长 ,同时 考虑 研究 者 规模 和 
论 普 影响 力 等 因素 ,从 学 科 领 域 影响 力 维度 丰富 了 现 
存 附 专家 专长 识别 方法 。 同 时 ,该 方法 能 够 挖掘 特定 
各国 的 权威 专家 、 开 展 细 粒 度 的 专家 评价 以 及 分 析 学 
入 域 热点 等 。 实 验 结果 初步 验证 了 本 研究 所 提出 的 
玲 济 专长 识别 方法 的 有 效 性 ,为 专家 评价 与 学 科 分 析 
提 人 了 新 视角 。 

>< 但 本 文 所 构建 的 专家 专长 识别 方法 仍 存在 一 定 不 

中 0 测 如 数据 集 仅 采 用 了 南大 核心 CSSCI 来 源 中 文 期 

刊 澡 录 相关 论文 , 且 在 数据 选择 过 程 中 未 对 综述 实证 

研 缚 等 不 同类 型 的 论文 加 以 区 分 。 此 外 ,通过 论文 关 

键 词 与 词 向 量 模型 语义 扩展 构建 专长 词典 ,不 能 有 效 

地 揭示 学 科 与 术语 的 关系 ,不 能 有 效 区 分 描述 研究 主 

题 和 研究 方法 的 术语 ,以 及 存在 部 分 细 粒 度 专 长 术语 

仍然 需要 专家 知识 进行 解析 才能 够 较 好 地 描述 专家 专 

长 。 因 此 ,如 何 融 合 学 科 领 域 知识 本 体 ,进一步 优化 专 

家 专长 识别 方法 ,构建 更 加 全 面 系统 的 细 粒 度 专 家 评 

价 模型 ,还 有 待 进一步 的 研究 探索 。 
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Abstract: | Purpose/significance | Identifying expertise tags helps to find scholars with the same or similar re- 
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search capabilities, which is of great significance to support fine-grained scholar evaluation and analysis. | Method/ 
Woeess] In this research, we collected the keywords of academic papers to build an expertise seed dictionary, and 
ed semantic similarity to expand and align the dictionary. Additionally, we combined the citations frequency, au- 
fhor contribution rate and inverse document frequency of expertise terms, and proposed cited-inverse document fre- 
ncy based weight calculation method for expertise tag. Considering the weights of expertise tags, we could find the 
répresentative expertise tags of scholars, and carry out expert evaluation and analysis. | Result/ conclusion | Experi- 
ment proves that the proposed scholar expertise identification method can objectively reflect the influence of scholar 
expertise , and provide a practical reference for fine-grained scholar evaluation, expert recommendation, and field 
hotspot analysis and other related fields. 
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